智能论文笔记

Ensemble learning techniques for intrusion detection system in the context of cybersecurity

Andricson Abeline Moreira , Carlos A. C. Tojeiro , Carlos J. Reis , Gustavo Henrique Massaro , Igor Andrade Brito e Kelton A. P. da Costa

分类：机器学习

2022-12-21

Recently, there has been an interest in improving the resources available in Intrusion Detection System (IDS) techniques. In this sense, several studies related to cybersecurity show that the environment invasions and information kidnapping are increasingly recurrent and complex. The criticality of the business involving operations in an environment using computing resources does not allow the vulnerability of the information. Cybersecurity has taken on a dimension within the universe of indispensable technology in corporations, and the prevention of risks of invasions into the environment is dealt with daily by Security teams. Thus, the main objective of the study was to investigate the Ensemble Learning technique using the Stacking method, supported by the Support Vector Machine (SVM) and k-Nearest Neighbour (kNN) algorithms aiming at an optimization of the results for DDoS attack detection. For this, the Intrusion Detection System concept was used with the application of the Data Mining and Machine Learning Orange tool to obtain better results

translated by 谷歌翻译

Direct deduction of chemical class from NMR spectra

Stefan Kuhn , Carlos Cobas , Agustin Barba , Simon Colreavy-Donnelly , Fabio Caraffini , Ricardo Moreira Borges

分类：人工智能 | 机器学习

2022-11-06

This paper presents a proof-of-concept method for classifying chemical compounds directly from NMR data without doing structure elucidation. This can help to reduce time in finding good structure candidates, as in most cases matching must be done by a human engineer, or at the very least a process for matching must be meaningfully interpreted by one. Therefore, for a long time automation in the area of NMR has been actively sought. The method identified as suitable for the classification is a convolutional neural network (CNN). Other methods, including clustering and image registration, have not been found suitable for the task in a comparative analysis. The result shows that deep learning can offer solutions to automation problems in cheminformatics.

translated by 谷歌翻译

Underwater enhancement based on a self-learning strategy and attention mechanism for high-intensity regions

Claudio D. Mello Jr. , Bryan U. Moreira , Paulo J. O. Evald , Paulo L. Drews Jr. , Silvia S. Botelho

分类：计算机视觉

2022-08-04

在水下活动期间获得的图像遭受了水的环境特性，例如浊度和衰减。这些现象会导致颜色失真，模糊和对比度减少。另外，不规则的环境光分布会导致色道不平衡和具有高强度像素的区域。最近的作品与水下图像增强有关，并基于深度学习方法，解决了缺乏生成合成基地真相的配对数据集。在本文中，我们提出了一种基于深度学习的水下图像增强的自我监督学习方法，不需要配对的数据集。提出的方法估计了水下图像中存在的降解。此外，自动编码器重建此图像，并使用估计的降解信息降解其输出图像。因此，该策略在训练阶段的损失函数中用降级版本代替了输出图像。此过程\ textIt {Misleads}学会补偿其他降解的神经网络。结果，重建的图像是输入图像的增强版本。此外，该算法还提出了一个注意模块，以减少通过颜色通道不平衡和异常区域在增强图像中产生的高强度区域。此外，提出的方法不需要基本真实。此外，仅使用真实的水下图像来训练神经网络，结果表明该方法在颜色保存，颜色铸造降低和对比度改进方面的有效性。

translated by 谷歌翻译

Human Saliency-Driven Patch-based Matching for Interpretable Post-mortem Iris Recognition

Aidan Boyd , Daniel Moreira , Andrey Kuehlkamp , Kevin Bowyer , Adam Czajka

分类：计算机视觉

2022-08-03

法医虹膜认可，而不是活着的Iris认可，是一个新兴的研究领域，它利用Iris Biometrics的判别能力来帮助人类检查员识别死者。作为一种主要是人为控制的任务，作为一种基于机器学习的技术，法医识别是在验证后识别任务中对人类专业知识的“备份”。因此，机器学习模型必须是（a）可解释的，并且（b）验尸特异性，以说明衰减眼组织的变化。在这项工作中，我们提出了一种满足需求的方法，并以人类感知的方式以一种新颖的方式接近验尸的创建。我们首先使用人类突出的图像区域的注释来训练基于学习的特征探测器，这是他们的决策。实际上，该方法直接从人类那里学习可解释的特征，而不是纯粹的数据驱动特征。其次，区域虹膜代码（同样，具有人体驱动的过滤内核）用于配对检测到的虹膜斑块，这些颗粒被转化为基于斑块的比较分数。通过这种方式，我们的方法为人类考官提供了人为理解的视觉提示，以证明身份决定和相应的置信度得分是合理的。当在259名死者的验尸虹膜图像的数据集上进行测试时，提出的三个最佳虹膜匹配者中提出的方法位置比商业（非人类互换）的Verieye方法更好。我们提出了一种独特的验尸后虹膜识别方法，该方法接受了人类显着性的培训，可以在法医检查的背景下提供完全解释的比较结果，从而实现最先进的识别表现。

translated by 谷歌翻译

A general framework for multi-step ahead adaptive conformal heteroscedastic time series forecasting

Martim Sousa , Ana Maria Tomé , José Moreira

分类： (统计)机器学习 | 机器学习

2022-07-28

机器学习（ML）的指数增长引起了极大的兴趣，以量化用户定义的信心水平的每个预测的不确定性。可靠的不确定性定量至关重要，是迈向增加对AI结果的信任的一步。在高风险决策中，它变得尤为重要，在这种决策中，真正的输出必须在置信度范围内具有很高的可能性。共形预测（CP）是一个无分布的不确定性定量框架，可适用于任何黑框模型，并产生预测间隔（PI），这些预测间隔（PIS）在轻度的交换性假设下有效。 CP型方法由于易于实施和计算便宜而变得越来越流行；但是，交换性假设立即排除时间序列预测。尽管最近的论文解决了协变量的转变，但对于一般时间序列预测生产H-Step提前有效PI的问题还不足。为了实现这样的目标，我们提出了一种称为AENBMIMOCQR的新方法（自适应集合批量多输入多输出保形的分数回归），该方法会产生渐近有效的PIS，适合异质驱动时间序列。我们将提出的方法与NN5预测竞争数据集中的最新竞争方法进行比较。所有用于复制实验的代码和数据都可以使用

translated by 谷歌翻译

Lightweight Automated Feature Monitoring for Data Streams

João Conde , Ricardo Moreira , João Torres , Pedro Cardoso , Hugo Ferreira , Marco O. P. Sampaio , João Tiago Ascensão , Pedro Bizarro

分类：机器学习

2022-07-18

监视自动实时流处理系统的行为已成为现实世界应用中最相关的问题之一。这种系统的复杂性已在很大程度上依赖于高维输入数据和数据饥饿的机器学习（ML）算法。我们提出了一个灵活的系统，功能监视（FM），该系统在此类数据集中检测数据漂移，并具有较小且恒定的内存足迹和流应用程序中的小计算成本。该方法基于多变量统计测试，并且是由设计驱动的数据（从数据中估算了完整的参考分布）。它监视系统使用的所有功能，同时每当发生警报时提供可解释的功能排名（以帮助根本原因分析）。系统的计算和记忆轻度是由于使用指数移动直方图而导致的。在我们的实验研究中，我们用其参数分析了系统的行为，更重要的是显示了它检测到与单个特征无直接相关的问题的示例。这说明了FM如何消除添加自定义信号以检测特定类型问题的需求，并且监视功能可用空间通常足够。

translated by 谷歌翻译

Improved conformalized quantile regression

Martim Sousa , Ana Maria Tomé , José Moreira

分类： (统计)机器学习 | 机器学习

2022-07-06

共形分位回归是一种继承保形预测和分数回归的优势的程序。也就是说，我们使用分位数回归来估计真正的条件分位数，然后在校准集中应用一个共形步骤以确保边缘覆盖率。通过这种方式，我们获得了解释异质性的自适应预测间隔。然而，如（Romano等，2019）所述，上述形式缺乏适应性。为了克服这一限制，我们建议在估计有条件的分位数后使用分位数回归后应用单个共形步骤，而是建议将解释变量通过优化的k均值加权的解释变量聚集，并应用k的共形步骤。为了证明此改进的版本优于共形分位数回归的经典版本，并且更适合异方差，我们可以广泛比较开放数据集中两者的预测间隔。

translated by 谷歌翻译

A neural network based controller for underwater robotic vehicles

Josiane Maria Macedo Fernandes , Marcelo Costa Tanaka , Raimundo Carlos Silvério Freire Júnior , Wallace Moreira Bessa

分类：机器人

2022-05-23

由于过去几十年中获得的大量技术改进，因此可以使用机器人车进行水下勘探。这项工作描述了用于基于水下车辆的动态定位系统的开发。采用的方法是使用Lyapunov稳定性理论开发的，并通过基于神经网络的算法增强了不确定性和干扰补偿。通过数值模拟评估所提出的控制方案的性能。

translated by 谷歌翻译

Self-supervised learning in non-small cell lung cancer discovers novel morphological clusters linked to patient outcome and molecular phenotypes

Adalberto Claudio Quiros , Nicolas Coudray , Anna Yeaton , Xinyu Yang , Luis Chiriboga , Afreen Karimkhan , Navneet Narula , Harvey Pass , Andre L. Moreira , John Le Quesne

分类：计算机视觉 | 机器学习

2022-05-04

组织病理学图像提供了癌症诊断的明确来源，其中包含病理学家用来识别和分类恶性疾病的信息，并指导治疗选择。这些图像包含大量信息，其中大部分目前不可用人类的解释。有监督的深度学习方法对于分类任务非常有力，但它们本质上受注释的成本和质量限制。因此，我们开发了组织形态表型学习，这是一种无监督的方法，它不需要注释，并且通过小图像瓷砖中的歧视性图像特征的自我发现进行操作。瓷砖分为形态上相似的簇，这些簇似乎代表了自然选择下出现的肿瘤生长的复发模式。这些簇具有不同的特征，可以使用正交方法识别。应用于肺癌组织，我们表明它们与患者的结局紧密保持一致，组织病理学识别的肿瘤类型和生长模式以及免疫表型的转录组度量。

translated by 谷歌翻译

PaLM: Scaling Language Modeling with Pathways

Aakanksha Chowdhery , Sharan Narang , Jacob Devlin , Maarten Bosma , Gaurav Mishra , Adam Roberts , Paul Barham , Hyung Won Chung , Charles Sutton , Sebastian Gehrmann

分类：自然语言处理

2022-04-05

大型语言模型已被证明可以使用少量学习来实现各种自然语言任务的出色表现，这大大减少了将模型调整到特定应用程序所需的特定任务培训示例的数量。为了进一步了解量表对少量学习的影响，我们培训了一个5400亿个参数，密集激活的变压器语言模型，我们称之为“途径”语言模型棕榈。我们使用Pathways在6144 TPU V4芯片上训练了Palm，这是一种新的ML系统，可在多个TPU POD上进行高效的训练。我们通过在数百种语言理解和产生基准的基准方面实现最先进的学习结果来证明扩展的持续好处。在这些任务中，Palm 540B实现了突破性的表现，在一系列多步推理任务上表现出色，超过了最新的最新表现，并且在最近发布的Big Benchmark上表现优于平均人类表现。大量的大型基础任务显示出与模型量表的不连续改进，这意味着当我们扩展到最大模型时，性能急剧增加。 Palm在多语言任务和源代码生成方面也具有很强的功能，我们在各种基准测试中证明了这一点。我们还提供了有关偏见和毒性的全面分析，并研究了训练数据记忆的程度，相对于模型量表。最后，我们讨论与大语言模型有关的道德考虑，并讨论潜在的缓解策略。

translated by 谷歌翻译